The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
我们提出了一个基于神经网络的系统,用于长期,多动能人类运动合成。该系统被称为神经木偶,可以从简单的用户输入中平稳过渡,包括带有预期动作持续时间的动作标签,以及如果用户指定的话,则可以产生高质量和有意义的动作。我们系统的核心是一种基于变压器的新型运动生成模型,即Marionet,它可以在给定的动作标签给定不同的动作。与现有运动生成模型不同,Marionet利用了过去的运动剪辑和未来动作标签的上下文信息,专门用于生成可以平稳融合历史和未来动作的动作。具体而言,Marionet首先将目标动作标签和上下文信息编码为动作级潜在代码。该代码通过时间展开模块将代码展开为帧级控制信号,然后可以将其与其他帧级控制信号(如目标轨迹)结合使用。然后以自动回归方式生成运动帧。通过依次应用木偶,系统神经木偶可以借助两个简单的方案(即“影子开始”和“动作修订”)来稳健地产生长期的多动作运动。与新型系统一起,我们还提供了一个专门针对多动运动综合任务的新数据集,其中包含动作标签及其上下文信息。进行了广泛的实验,以研究我们系统产生的动作的动作准确性,自然主义和过渡平滑度。
translated by 谷歌翻译
神经文本排名模型已经见证了显着的进步,并越来越多地在实践中部署。不幸的是,它们还继承了一般神经模型的对抗性脆弱性,这些神经模型已被检测到,但仍未被先前的研究所忽视。此外,Blackhat SEO可能会利用继承的对抗性漏洞来击败受保护的搜索引擎。在这项研究中,我们提出了对黑盒神经通道排名模型的模仿对抗攻击。我们首先表明,可以通过列举关键查询/候选者,然后训练排名模仿模型来透明和模仿目标段落排名模型。利用排名模仿模型,我们可以精心操纵排名结果并将操纵攻击转移到目标排名模型。为此,我们提出了一种由成对目标函数授权的基于创新的基于梯度的攻击方法,以产生对抗性触发器,该触发器会导致有预谋的混乱,而具有很少的令牌。为了配备触发器的伪装,我们将下一个句子预测损失和语言模型流利度限制添加到目标函数中。对通过排名的实验结果证明了对各种SOTA神经排名模型的排名模仿攻击模型和对抗触发器的有效性。此外,各种缓解分析和人类评估表明,在面对潜在的缓解方法时,伪装的有效性。为了激励其他学者进一步研究这一新颖和重要的问题,我们将实验数据和代码公开可用。
translated by 谷歌翻译
线云虽然在先前的工作中受到评价不足,但与从多视图图像中提取的点云相比,可能对建筑物的结构信息进行了更紧凑的结构信息。在这项工作中,我们建议第一个处理用于构建线框抽象的线云的网络。该网络将线云作为输入,即从多视图图像提取的3D线段的非结构和无序集,并输出基础建筑物的3D线框,该建筑物由稀疏的3D连接组组成,由线段连接, 。我们观察到一个线斑块,即一组相邻的线段,编码足够的轮廓信息,以预测潜在连接的存在甚至3D位置,以及两个查询连接之间的连通性的可能性。因此,我们引入了两层线斑变压器,以从采样线贴片中提取连接和连接性,以形成3D构建线框模型。我们还介绍了带有地面3D线框的多视图图像的合成数据集。我们广泛证明,在多个基线建筑重建方法上,我们的重建3D线框模型可显着改善。
translated by 谷歌翻译
精确地重建由单个图像的各种姿势和服装引起的精确复杂的人类几何形状非常具有挑战性。最近,基于像素对齐的隐式函数(PIFU)的作品已迈出了一步,并在基于图像的3D人数数字化上实现了最先进的保真度。但是,PIFU的培训在很大程度上取决于昂贵且有限的3D地面真相数据(即合成数据),从而阻碍了其对更多样化的现实世界图像的概括。在这项工作中,我们提出了一个名为selfpifu的端到端自我监督的网络,以利用丰富和多样化的野外图像,在对无约束的内部图像进行测试时,在很大程度上改善了重建。 SelfPifu的核心是深度引导的体积/表面感知的签名距离领域(SDF)学习,它可以自欺欺人地学习PIFU,而无需访问GT网格。整个框架由普通估计器,深度估计器和基于SDF的PIFU组成,并在训练过程中更好地利用了额外的深度GT。广泛的实验证明了我们自我监督框架的有效性以及使用深度作为输入的优越性。在合成数据上,与PIFUHD相比,我们的交叉点(IOU)达到93.5%,高18%。对于野外图像,我们对重建结果进行用户研究,与其他最先进的方法相比,我们的结果的选择率超过68%。
translated by 谷歌翻译
从\ emph {nocedended}点云中重建3D几何形状可以使许多下游任务受益。最近的方法主要采用神经网络的神经形状表示,以代表签名的距离字段,并通过无签名的监督适应点云。但是,我们观察到,使用未签名的监督可能会导致严重的歧义,并且通常会导致\ emph {意外}故障,例如在重建复杂的结构并与重建准确的表面斗争时,在自由空间中产生不希望的表面。为了重建一个更好的距离距离场,我们提出了半签名的神经拟合(SSN拟合),该神经拟合(SSN拟合)由半签名的监督和基于损失的区域采样策略组成。我们的关键见解是,签名的监督更具信息性,显然可以轻松确定对象之外的区域。同时,提出了一种新颖的重要性抽样,以加速优化并更好地重建细节。具体而言,我们将对象空间弹并分配到\ emph {sign-newand}和\ emph {sign-unawern}区域,其中应用了不同的监督。此外,我们根据跟踪的重建损失自适应地调整每个体素的采样率,以便网络可以更多地关注复杂的拟合不足区域。我们进行了广泛的实验,以证明SSN拟合在多个数据集的不同设置下实现最新性能,包括清洁,密度变化和嘈杂的数据。
translated by 谷歌翻译
深度学习技术在图像压缩中显示出令人鼓舞的结果,并具有竞争性的比特率和图像重建质量。但是,尽管图像压缩已经朝着更高的峰值信噪比(PSNR)和每个像素(BPP)较少的位置发展,但它们对对抗图像的稳健性从未经过审议。在这项工作中,我们首次研究了图像压缩系统的鲁棒性,其中不可察觉的输入图像的扰动会导致其压缩潜在的比特率显着增加。为了表征最先进的图像压缩的鲁棒性,我们安装了白色框和黑框攻击。我们的白框攻击在比特斯流的熵估计中采用快速梯度标志方法作为比特率近似。我们提出了DCT-NET,以建筑简单性和轻量级训练为Black-Box攻击中的替代品,并实现快速的对抗性转移性,以模拟JPEG压缩。我们在六个图像压缩模型上的结果,每个模型具有六个不同的比特率质量(总共36个模型),表明它们令人惊讶地脆弱,其中白盒攻击可达到56.326X和Black-Box 1.947X BPP的变化。为了提高鲁棒性,我们提出了一种新型的压缩体系结构ractatn,它结合了注意模块和一个基本分解的熵模型,从而在对抗性攻击方面的速率延伸性能与鲁棒性之间的有希望的权衡,超过了现有的学术图像压缩机。
translated by 谷歌翻译
3D面重建结果的评估通常取决于估计的3D模型和地面真相扫描之间的刚性形状比对。我们观察到,将两个形状与不同的参考点进行排列可以在很大程度上影响评估结果。这给精确诊断和改进3D面部重建方法带来了困难。在本文中,我们提出了一种新的评估方法,并采用了新的基准测试,包括100张全球对齐的面部扫描,具有准确的面部关键点,高质量的区域口罩和拓扑符合的网格。我们的方法执行区域形状比对,并导致计算形状误差期间更准确,双向对应关系。细粒度,区域评估结果为我们提供了有关最先进的3D面部重建方法表现的详细理解。例如,我们对基于单图像的重建方法的实验表明,DECA在鼻子区域表现最好,而Ganfit在脸颊区域的表现更好。此外,使用与我们构造的相同过程以对齐和重新构造几个3D面部数据集的新型和高质量的3DMM基础HIFI3D ++。我们将在https://realy3dface.com上发布真正的HIFI3D ++以及我们的新评估管道。
translated by 谷歌翻译
除了像素功能之外,还利用“类级”信息(例如OCR和CPNET)等最新的分割方法,在提高现有网络模块的准确性方面取得了显着的成功。但是,提取的类级信息简单地与像素功能相连,而无需明确利用以获得更好的像素表示学习。此外,这些方法基于粗蒙版预测来学习软类中心,这很容易积累错误。在本文中,旨在更有效地使用班级信息,我们提出了一种普遍的班级感知正规化(CAR)方法,以优化特征学习过程中的阶层内差异和类间距离,这是由于人类可以识别的事实而激发的。对象本身不管它出现哪个其他对象。提出了三个新颖的损失功能。第一个损失函数鼓励每个类中更紧凑的类表示,第二个损失函数直接最大化了不同类中心之间的距离,第三个进一步推动了班级中心和像素之间的距离。此外,我们方法中的班级中心是由地面真理直接产生的,而不是从容易出错的粗糙预测中产生。我们的方法可以轻松地应用于包括OCR和CPNET在内的大多数现有分割模型,并且在没有额外的推理开销的情况下可以在很大程度上提高其准确性。在多个基准数据集上进行的广泛实验和消融研究表明,所提出的汽车可以提高所有基线模型的准确性,高达2.23%MIOU,具有出色的概括能力。完整的代码可在https://github.com/edwardyehuang/car上找到。
translated by 谷歌翻译
神经辐射场(NERF)使用基于坐标的神经场景表示实现了前所未有的视图合成质量。然而,NERF的视图依赖项只能处理像亮点的简单反射,而是无法处理复杂的反射,例如来自玻璃和镜子的复杂反射。在这些方案中,NERF将虚拟映像模拟为实际几何形状,这导致了不准确的深度估计,并且当违反多视图一致性时产生模糊渲染,因为只有在一些视点下只能看到反射对象。为了克服这些问题,我们介绍了nerfren,它建在nerf,以模拟思考的场景。具体地,我们建议将场景分成传输和反射的组件,并模拟具有单独的神经辐射场的两个组件。考虑到这种分解是高度限制的,我们利用几何前瞻,并仔细设计的培训策略,以实现合理的分解结果。各种自捕获场景的实验表明,我们的方法实现了高质量的新颖观看合成和物理声音深度估计结果,同时启用场景编辑应用。代码和数据将被释放。
translated by 谷歌翻译